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Verfahren zur Erkennung von Objekten in Bildern auf der Bildpixelebene 



Die Erfindung betrifft ein Verfahren zur Erkennung von Objekten mindestens 
einer vorgegebenen Objektklasse in digitalen Bildern auf der Bildpixelebene 
insbesondere zur automatischen Auswertung von Bildinformationen. 

In vielen Anwendungsfeldern liegt Bildmaterial in groRem Umfang vor, daft 
nach vorbestimmten Kriterien zu analysieren ist. Beispielsweise im Bereich 
der militarischen Aufklarung treten haufig Falle auf, in denen mittels Senso- 
ren Szenarien erfaftt werden, die nach dern Vorhandensein von Bedrohungen 
zu untersuchen sind. Diese Bilder werden meistens in groGer Zahl zur Verfu- 
gung gestellt und sind unter vorbestimmten Zeitbedingungen zu bewerten. 
Aus diesen Grunden wird eine automatische Bildanalyse angestrebt. Weitere 
Anwendungsfalle dieser Art finden sich in dem Bereich der Medizin beispiels- 
weise zur Untersuchung einer groRen Zahl von Rontgenbildern, z.B. zur Er- 
kennung von Anomalien, Tumoren. Ein weiteres Beispiel fur die Verwendung 
von automatischen Analyseverfahren von Bildern liegt im Bereich von Ord- 
nungsdiensten vor. Auch bei der VermiBtensuche Oder bei Grenzkontrollen 
bieten automatische Bildanalyseverfahren groRe Vorteile. 

Allgemeine theoretische Ansatze fur derartige Analyseverfahren zur Erken- 
nung von Objekten in Bildern sind aus einem technischen Bericht von T. 
Dodd, Technical Report ISIS TR-4, University of Southampton, 1996, bekannt. 
Dieser Bericht beschreibt verschiedene mogliche Ansatze zur Analyse von 
digitalen Bildern zur Objekterkennung. Die Erfindung betrifft die konkrete 
Realisierung eines einsetzbaren, robusten Analyseverfahrens fur die Objek- 
terkennung. 

Einzelne Schritte eines Analyseverfahrens sind in folgenden Schriften offen- 
bart: Unterschiedliche Verfahren zur Grobklassifikation von Objekten werden 
in der Veroffentlichung „Classifier and Shift-invariant Automatic Target Reco- 
gnition Neural Networks", D.P. Casasent, L.M. Neiberg, Neural Networks, Vol. 
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8, No. 7/8, Elsevier Science Ltd., 1995, beschrieben. Allgemeine Verfahren 
zur Zerlegung eines digitalen Bildes in Signalreprasentationen finden sich z.B. 
in „Praxis der Digitalen Bildverarbeitung und Mustererkennung", P. Haberak- 
ker, Carl Hanser Verlag, 1995. Die Ensembletheorie fur Klassifikatoren wird in 
einer Veroffentlichung im "Al magazine", Vol. 18, No. 4, Winter 1997, AAA I 
Press, "Machine-Learning Research" von T.G. Dietterich beschrieben. Eine 
mogliche Form, um Einzelergebnisse einer Analyse zu fusionieren , wird in 
„ Vehicle Detection in Infrared Linescan Imagery Using Belief Networks", P.G. 
Dubksbury, D.M. Booth, C.J. Radfort, 5 th Int. Conf. Image Proc. and App., 
Edinburg, 1995, erlautert. 

Es ist die Aufgabe der Erfindung, ein Analyseverfahren zu schaffen, das mog- 
lichst zuverlassig Objekte in Bildern erkennt und von seiner Systematik her 
fur eine automatische Objekterkennung einer groBen Zahl von Bildern unter 
Zeitbedingungen geeignet ist. 

Diese Aufgabe wird mit den Merkmalen des Anspruchs 1 gelost. Weitere Aus- 
fuhrungsformen sind in den Unteranspruchen angegeben. 

Die erfindungsgemaBe Anordnung bzw. das erfindungsgemaBe Verfahren er- 
moglicht gegeniiber dem Stand der Technik ein zuverlassiges Analyseverfah- 
ren fur die Objekterkennung. 

Das erfindungsgemaBe Analyseverfahren zeichnet sich dadurch aus, daB es 
ein robustes, praktikables Verfahren zur Erkennung einer groBen Anzahl von 
unterschiedlichen Objektklassen, z.B. Fahrzeuge, Personen, Gebaude, usw., 
darstellt. Die Erfindung kann fur eine groBe Zahl an Bildquellen, z.B. Video- 
kameras, Infrarotkameras, usw., angewendet werden. 

Im folgenden wird die Erfindung anhand der Figuren beschrieben, die zeigen: 

Fig. 1 der Ablauf des erfindungsgemaBen Objekterkennungsverfahrens fur 
mehrere Objektklassen, soweit es auf der Bildpixelebene durchge- 
fuhrt wird, 



Sc/Th - 17.11.1999 




P 609252 3 



ein Beispiel fur ein verwendetes Eingangsbild sowie ein daraus auf- 
grund des ersten Verfahrensschrittes der Grobklassifikation ent- 
stehendes reduziertes Bild, 

ein Beispiel fur einen Ausschnitt eines moglichen Entscheidungser- 
gebnisbildes des letzten Verfahrenschrittes der Erstellung eines 
Entscheidungsergebnisses und 

der Ablauf des erfindungsgemaBen Objekt-Erkennungsverfahrens, 
wenn nur eine Objektklasse relevant oder gesucht ist. 

Bei der Durchfuhrung des erfindungsgemaBen Verfahrens zur Objekterken- 
10 nung in Bildern wird zunachst jedes Eingangs- oder Einzelbild 1 gesondert 
analysiert. Jedes Einzelbild oder Eingangsbild 1 wird einem ersten Verfah- 
rensschritt, einer Grobklassifikation 10, zugefuhrt. Bei dieser Grobklassifika- 
tion 10 wird das Eingangsbild 1 insgesamt als Einheit betrachtet, d.h. es wird 
noch keine Zerlegung des Eingangsbilds 1 vorgenommen. Das Eingangsbild 1 
is wird durch die Grobklassifikation 10 in relevante und vernachlassigbare Bild- 
pixel separiert. Ein geeignet gewahlter Grobklassifikator bestimmt fur jeden 
Bildpunkt des Eingangsbilds 1 die Relevanz des Bildpunktes fur die nachfol- 
genden Verfahrensschritte. Die Bildpunkte des Eingangsbilds 1 werden dabei 
nach einem vorgegebenen Kriterium nach ihrer Wichtigkeit hinsichtlich der zu 
feo erkennenden Objekte klassifiziert. Hierbei wird beispielsweise nach vorgege- 
* benen Kriterien ermittelt, ob das Bild interessante Bereiche, d.h. zu erken- 
nende Objekte oder Teile derselben, enthalt. 

Ein Beispiel eines solchen Kriteriums ist die relative Hornogenitat der Nach- 
barschaft des betrachteten Bildpunkts. Es wird die Annahme gemacht, daB 

25 homogene Bildbereiche keine zu erkennenden Objekte enthalten. Die Nach- 
barschaft eines Bildpunktes wird nach einer vorgegebenen Rasterung im Bild 
definiert. Zur Ermittlung der Hornogenitat der Nachbarschaft des betrachte- 
ten Bildpunktes wird gepruft, ob ein Bereich von Bildpunkten ahnliche vorge- 
gebene Eigenschaften, z.B. ahnliche Farbwerte, aufweist. Entsprechen diese 

30 Eigenschaften des Bereichs dem vorgegebenen Homogenitatskriterium, wird 



Fig. 2 



Fig. 3 



Fig. 4 
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dieser Bildpunkt als fur die nachfolgenden Verfahrensschritte uninteressant 
eingestuft und nicht weiter verarbeitet. Wird das Vorhandensein des Kriteri- 
ums verneint, d.h. liegt eine inhomogene Nachbarschaft vor, wird der Bild- 
punkt als fur die weitere Verarbeitung interessant eingestuft. 

Als Beispiel diene ein Eingangsbild 1, das aus einern tieffliegenden Flugzeug 
aufgenommen wurde und ein Szenario aus Landschaft und Fahrzeugen zeigt, 
wobei die Fahrzeuge mittels des erfindungsgemaBen Verfahrens automatisch 
zu erkennen sind. Bei einem solchen Eingangsbild wird fur jeden seiner Pixel- 
punkte uberpruft, ob dieser eine gewisse Nachbarschaft rnit ahnlichen Farb- 
werten besitzt. So stellen z.B. die Felder im Bild homogene Bildregionen dar, 
die sich aus sehr ahnlichen Farbwerten zusammensetzen. Die Fahrzeuge hin- 
gegen zeigen lokal stark unterschiedliche Farbwerte und die entsprechenden 
Pixelpunkte erfullen das vorgegebene Homogenitatskriterium nicht. Somit 
werden alle Bildpixelpunkte, die z.B. zu den Feldern gehoren, als fur die wei- 
15 tere Verarbeitung unwichtig eingestuft und alle Bildpixelpunkte, die z.B. zu 
Fahrzeugen gehoren, in den folgenden Verfahrensschritten weiterverwendet. 

Eine Darstellung eines beispielhaften Eingangsbilds 1 sowie das aufgrund der 
Grobklassifikation entstehende reduzierte Bild 1 1 ist in der Figur 2 gezeigt. 
Das dort dargestellte Eingangsbild 1 wurde von einem Infrarotsensor aufge- 
20 zeichnet und zeigt eine in einem Gelande befindliche StraBe mit Fahrzeugen, 
die als drei dunkle Flecken in der unteren Halfte des linken Bildes der Figur 2 
erkennbar sind. Aufgrund der Grobklassifikation 10 wurden fur die weitere 
Analyse uninteressante Bildpunkte identifiziert. Diese sind im rechten Bild der 
Figur 2 als weiBe Flachen gekennzeichnet. Die im folgenden beschriebenen 
25 Verfahrensschritte 20, 30, 40, 50 ignorieren diese Bereiche und bearbeiten 
zur weiteren Analyse des reduzierten Bildes 1 1 ausschlieBlich die nicht weiB 
markierten Bildbereiche oder -pixel. 

Mit der Grobklassifikation 10 wird der Bearbeitungsbereich des Eingangsbil- 
des 1 eingeschrankt und dieses zu einem reduzierten Bild 1 1 verarbeitet. Die 
30 nachfolgenden Verfahrensschritte konzentrieren sich nur noch auf Bildpixel- 
punkte, auf die das Verfahren im Schritt 10 reduziert worden ist. In den nach- 
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folgenden Verfahrensschritten 20, 30, 40, 50 wird zur Vereinfachung der Dar- 
stellung nicht jedesmal darauf hingewiesen, sondern es wird davon ausgegan- 
gen, daB nur diejenigen Pixelpunkte von den Verfahrensschritten 20, 30, 40, 
50 bearbeitet werden, auf die der Bearbeitungsbereich durch die Grobklassi- 
fikation 10 eingeschrankt wurde. 

In einem nachsten Verfahrensschritt, in der Zerlegung oder Filterung 20 in 
Signalreprasentationen, werden aus jedem reduzierten Bild 1 1 durch eine 
vorzugsweise mehrfache Filterung nach vorbekannten Kriterien mehrere Fil- 
terbilder 21, 22, 23 erzeugt, die jeweils die gesamte im reduzierten Bild 11 
enthaltene Szene umfassen, soweit sie fur die Objekterkennung relevant ist. 
Die Filterbilder 21, 22, 23 korrespondieren hinsichtlich der dargestellten In- 
halte. Dabei kann jedes reduzierte Bild 1 1 allgemein in mindestens zwei kor- 
respondierende Filterbilder zerlegt werden. Bei der Ausfuhrungsform nach der 
Figur 1 entstehen bei der Zerlegung 20 drei korrespondierende Filterbilder 
is 21, 22, 23. Die Filterung ist dabei vorzugsweise zweidimensional. Die Filte- 
rung karin auch eindimensional , d.h. fur die Zeilen oder Spalten des reduzier- 
ten Bilds 1 1 erfolgen. Die durch die Zerlegung 20 entstandenep korrespon- 
dierenden Filterbilder 21, 22, 23 entsprechen vorzugsweise komplernentaren 
Informationen aus dem reduzierten Bild 11. Die Informationen der komple- 
20 mentaren Filterbilder 21, 22, 23 konnen dabei zusammengenommen wieder 
die Gesamtinformation des reduzierten Bilds 1 1 bilden. Es werden samtliche 
Bestandteile des reduzierten Bildes 1 1 einer Filterung unterworfen. 



Beispielsweise konnte ein reduziertes Bild 1 1 in dem Verfahrensschritt 20 in 
ein erstes korrespondierendes Filterbild 21 mit kleinen Elementen, in ein 

25 zweites korrespondierendes Filterbild 22 mit groBeren Elementen und in ein 
korrespondierendes Filterbild 23 mit den verbleibenden noch groBeren Ele- 
menten zerlegt werden. Die im reduzierten Bild 1 1 dargestellte Szene bleibt 
dabei erhalten, d.h. es bleiben die relevanten Bild-Bestandteile und deren Zu- 
ordnungen relativ zueinander erhalten, wobei uninteressante Bild-Bestandtei- 

30 le wie Kulturinformationen des Gelandes in den Filterbildern nicht mehr auf- 
treten mussen. Das Grob-Szenario des reduzierten Bildes 1 1 bleibt in den Fil- 
terbildern 21, 22, 23 erhalten. Betrachtet man als Beispiel das oben einge- 
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fuhrte Bild einer StraBe mit Fahrzeugen und Feldern, so konnte z.B. das Fil- 
terbild 21 von den Fahrzeugen die Objektdetails, wie z.B. die Reifen und die 
Scheinwerfer, enthalten. In dem Filterbild 22 werden die mittleren Strukturen 
der Fahrzeuge, wie z.B. Windschutzscheibe, Motorhaube, usw., hervorgeho- 
ben und das Filterbild 23 enthalt dann nur noch den groben UmriB der Fahr- 
zeuge. Die Gesamtszene mit der StraBe und den Fahrzeugen ist in jedem Fil- 
terbilder 21, 22, 23 weiterhin enthalten. 

Nach einem anderen Beispiel kann die Zerlegung 20 des reduzierten Bildes 
1 1 nach Farbbereichen oder nach Grauwerten vorgenommen werden. Ein 
weiteres Beispiel fur eine mogliche Zerlegung 20 des reduzierten Bildes 1 1 in 
einzelne korrespondierende Filterbilder oder Reprasentanten stellt eine Bild- 
pyramide dar. Jeder Reprasentant einer Bildpyramide, d.h. jede Stufe dieser 
Bildpyramide, entspricht einer anderen, im allgemeinen niedrigeren Auflosung 
des Eingangsbildes. Somit werden die Informationen des reduzierten Bildes 
11, d.h. im wesentlichen die darin enthaltenen Objekte, in unterschiedliche 
Auflosungen zerlegt. Jedes korrespondierende Filterbild enthalt somit andere 
GroBendimensionen der Bildinformation des reduzierten Bildes 1 1. 

In einer weiteren Stufe 30 des erfindungsgemaBen Verfahrens wird jeder Pi- 
xelpunkt jedes Filterbildes 21, 22, 23 mittels eines Klassifikators gepruft. Es 
sind insgesamt soviele Klassifikatoren anzuwenden, wie es Filterbilder gibt. 
Die Gesamtheit der eingesetzten Klassifikatoren bildet ein Ensemble von 
Klassifikatoren. Ein Ensemble besteht aus mindestens zwei Klassifikatoren. 
ErfindungsgemaB arbeitet jeder Klassifikator unabhangig voneinander und die 
Klassifikatoren unterscheiden sich im allgemeinen voneinander. 

Das Ergebnis der Prufung durch ein Ensemble von Klassifikatoren besteht 
darin, daB fur jedes Filterbild 21, 22, 23 jeweils eine Gruppe von Klassifikati- 
onsbildern 31a, 31b, 31c bzw. 32a, 32b, 32c bzw. 33a, 33b, 33c (Fig. 1) ent- 
stehen. In der Darstellung der Figur 1 stellen die Klassifikationsbilder 31a, 
32a, 33a das Ergebnis des Ensembles fur eine bestimmte Objektklasse a, z.B. 
ein bestimmter Fahrzeugtyp, dar. Die Klassifikationsbilder 31b, 32b, 33b bzw. 
31c, 32c, 33c entsprechen anderen Objektklassen (b und c), z.B. weiteren 
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Fahrzeugtypen. Das Verfahren ist nicht auf die beispielhaften drei Objektklas- 
sen begrenzt. Bei jedem einzelnen Klassifikationsbild sind fur jeden Pixel- 
punkt verschiedene Wertigkeiten, die ein MaB bzw. eine Bewertung des ent- 
sprechenden Klassifikators bezuglich der Zugehorigkeit des betrachteten Pi- 
xelpunktes zu einer Objektklasse darstellen, zugeordnet. Diese Bewertungs- 
maBzahlen konnen z.B. Wahrscheinlichkeiten oder eine festgelegte Gute- 
Rangordnung sein. 

Jeder Klassifikator arbeitet auf folgende Weise: Jeder Klassifikator ordnet Ein- 
gangswerten, d.h. jedem Pixelpunkt des jeweiligen Filterbildes 21, 22, 23 un- 
ter Berucksichtigung von dessen Umgebung, nach einer vorgegebenen Regel 
Ausgangswerte in Form von BewertungsmaGzahlen zu. Die Ausgangswerte 
des Klassifikators geben naherungsweise an, wie sicher sich der Klassifikator 
bei der Klassenzugehorigkeit des betrachteten Pixelpunktes ist. Klassifikato- 
ren konnen z.B. Polynomklassifikatoren, Support-Vektor-Maschinen oder neu- 
15 ronale Netze sein. 

Werden als Klassifikatoren beispielsweise neuronale Netze eingesetzt, be- 
steht das Ensemble entsprechend der Ausfuhrungsform der Fig. 1 aus drei 
unterschiedlichen neuronalen Netzen. Jedem neuronalen Netz ist genau eines 
der Filterbilder 21, 22, 23 zugeordnet, in Bezug auf das das entsprechende 
20 neuronale Netz operiert. Jedes neuronale Netz des Ensembles ordnet jedem 
Bildpunkt des zugeordneten Filterbildes 21, 22, 23 nach vorgegebenen Re- 
geln eine entsprechende BewertungsmaBzahl fur jede Objektklasse, z.B. ei- 
nen Wahrscheinlichkeitswert, in dem entsprechenden Klassifikationsbild 31a, 
31b, 31c bzw. 32a, 32b, 32c bzw. 33a, 33b, 33c zu, d.h. es speichert diesen 
25 Wert ab und visualisiert diesen, z.B. durch eine Farbkodierung, in dem Klassi- 
fikationsbild 31a, 31b, 31c bzw. 32a, 32b, 32c bzw. 33a, 33b, 33c. 

Die Regel eines Klassifikators wird vorzugsweise aus vorhandenen und vor 
Anwendung des in der Figur 1 dargestellten Verfahrens analysierten Beispie- 
len von reprasentativen Eingangswerten gewonnen. Dabei wird der Klassifika- 
30 tor im allgemeinen iterativ an die vorgegebenen Beispiele adaptiert und somit 
die in den Beispielen enthaltene Regel extrahiert. Bei neuronalen Netzen wird 
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diese Adaptionsphase in der entsprechenden Fach-Literatur als „Training" 
oder „Lernen einer Regel" bezeichnet. Fur andere Klassifikatoren werden z.B. 
statistische Verfahren eingesetzt. 

Sollen zum Beispiel aus vorliegenden Eingangsbildern verschiedene Fahrzeug- 
typen klassifiziert werden, so konnen fur die Klassifikation 30 als Klassen bei- 
spielsweise „Kleinwagen", „Limousinen" und transporter" festgelegt werden. 
Im Schritt 20 werden zunachst verschiedene Merkmale der Fahrzeuge aus 
den Bildern extrahiert. Aus diesen Merkmalen wird ein Merkmalsvektor fur 
jeden Pixelpunkt gebildet, dessen Komponenten den verwendeten Klassifika- 
tor als Eingangswerte zugefuhrt werden und als Basis fur eine Klassenzutei- 
lung dienen. Der Klassifikator ordnet entsprechend einer vorher festgelegten 
Regel jedem Merkmalsvektor eine BewertungsmaBzahl fur jede der Klassen 
„Kleinwagen", „Limousine" oder ./Transporter" zu. 

Bei dem Training von Neuronale Netz-Klassifikatoren vor Anwendung des Ver- 
fahrens konnen z.B. die dafur notwendigen Merkmaisvektoren aus verfugba- 
ren reprasentativen Beispieleingangsbildern gewonnen werden. Dabei werden 
diese Merkmaisvektoren fur das Lernen der Regeln nur aus denjenigen Pixel- 
punkten in den Filterbildern (21, 22, 23) gewahlt, die in der Grobklassifikation 
(10) der Beispieleingangsbilder als interessante Pixelpunkte eingestuft wor- 
den sind. 

Die Eingangswerte jedes Klassifikators setzen sich aus der Nachbarschaft des 
betrachteten Bildpunktes des entsprechenden Filterbildes 21, 22, 23 zusam- 
men. Dies bedeutet, daB fur jeden Bildpunkt eine lokale Umgebung, z.B. der 
linke, rechte, obere und untere Nachbarpixel des betrachteten Bildpunktes, 
ausgewahlt wird. Die Wahl der Umgebung kann in Abhangigkeit der zu erken- 
nenden Objekte erfolgen oder vorgegeben sein. Die Auswahlkriterien bezie- 
hen sich auf die Eigenschaften der zu erkennenden Objekte. Beispielsweise 
erfordem groGe Objekte groBere Umgebungen, da zur Erkennung groBer Ob- 
jekte im allgemeinen mehr Merkmale notig sind, als fur kleinere Objekte. Die- 
se benachbarten Pixelpunkte werden nach vorgegebenen Vorschriften in ei- 
nen Merkmalsvektor einsortiert. Basierend auf diesem Merkmalsvektor liefert 
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der entsprechende Klassifikator des Ensembles somit Ausgabewerte fur je- 
den Pixelpunkt, die ais Bewertung bzw. MaB bezuglich einer Klassenzugeho- 
rigkeit interpretiert werden. 

Ein Beispiel fur eine Vorschrift, um aus einer Umgebung eines Pixelpunktes 
einen Merkmalsvektor zu bilden, wird im folgenden beschrieben: Bei der Bil- 
dung des Merkmalsvektors werden die Werte der Umgebung des Pixelpunk- 
tes der jeweiligen Filterbilder (21, 22, 23) spiralformig in einen Koeffizienten- 
vektor einsortiert, auf diesen wird eine schnelle Fouriertransformation ange- 
wendet und der Merkmalsvektor wird dann aus dem Betrag der Transformati- 
onskoeffizienten gebildet. 

Wird von einer Zerlegung 20 in Signalreprasentationen ausgegangen, die Fil- 
terbilder 21,22,23 liefert, die beispielsweise kleine, mittlere und groBe Ob- 
jektmerkmale enthalten, dann kann die Klassifikation 30 folgendermaBen 
ablaufen: Fur jeden Pixelpunkt eines Filterbildes 21,22,23 wird aus dessen 
Nachbarschaft, z.B. aus einer 5x5-Pixelumgebung, deren Mittelpunkt der be- 
trachtete Pixelpunkt darstellt, ein Merkmalsvektor gebildet. Dieser Merk- 
malsvektor besteht entsprechend der gewahlten Umgebung aus 25 Kompo- 
nenten, die sich aus den kodierten Werten des entsprechenden Filterbildes 
21,22,23 zusammensetzen. Eine weitere mogliche Vorschrift zur Erzeugung 
eines Merkmalsvektors aus der 5x5 Pixelumgebung besteht z.B. darin, die 
Spalten der 5x5 Pixelumgebung nacheinander in den Merkmalsvektor einzu- 
ordnen. Anhand des gebildeten Merkmalsvektors liefert dann der dem Filter- 
bild zugeordnete Klassifikator Ausgangswerte, die eine Bewertung der Zuge- 
horigkeit des betrachtete Pixelpunkt zu den Objektklassen, z.B. „Kleinwagen", 
„Limousine" oder transporter", darstellen. Die Merkmalsvektoren aus z.B. 
dem Filterbild 21 enthalten beispielsweise Fahrzeugdetails, die spezifisch fur 
eine der Fahrzeugklassen sein konnen und aufgrund derer eine Klassenzutei- 
lung durch einen Klassifikator moglich wird. Analog beziehen sich in diesem 
Beispiel die Merkmalsvektoren des Filterbildes 22 auf mittlere Fahrzeugstruk- 
turen und die Merkmalsvektoren des Filterbildes 23 auf die groben Fahr- 
zeugstrukturen, die den jeweiligen Klassifikatoren als Grundlage fur ihre Ent- 
scheidung dienen. Fur jeweils eine Objektklasse liefert der Klassifikator einen 
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Ausgangswert, d.h. z.B. die Wahrscheinlichkeit des betrachteten Pixelpunktes 
fur eine Klassenzugehorigkeit. Dieser wird in dem entsprechenden Klassifika- 
tionsbild 31a, 32a, 33a bzw. 31b, 32b, 33b bzw. 31c, 32c, 33c abgespeichert 
und kann durch Farbcodierung des Wertebereichs, z.B. durch Zuordnung der 
Farbe Schwarz fur eine Wahrscheinlichkeit von 0 Prozent und der Farbe We+B 
fur eine Wahrscheinlichkeit von 100 Prozent, visualisiert werden. So konnte 
beispielsweise der erste Klassifikator, der dem Filterbild 21 zugeordnet ist, 
aufgrund des Merkmalsvektors eines bestimmten Pixelpunktes die Aus- 
gangswerte 13 Prozent fur die Objektklasse „Kleinwagen", 17 Prozent fur die 
Objektklasse „Limousine" und 70 Prozent fur die Objektklasse transporter" 
liefern, falls als BewertungsmaBzahlen Wahrscheinlichkeiten festgelegt wur- 
den. Diese drei Wahrscheinlichkeiten werden in den Klassifikationsbildern 
31a, 31b, 31c gespeichert und visualisiert. Die Klassifikationsbilder 32a, 32b, 
32c und 33a, 33b, 33c entstehen in analoger Weise. 

In einem weiteren Verfahrensschritt erfolgt fur jede Objektklasse eine Fusion 
40 der Klassifikationsbilder 31a, 32a, 33a bzw. 31b, 32b, 33b bzw. 31c, 32c, 
33c. Dabei werden die erhaltenen EinzelbewertungsmaBzahlen der Klassifika- 
toren je Pixelpunkt und je Klassifikationsbild 31a, 32a, 33a bzw. 31b, 32b, 
33b bzw. 31c, 32c, 33c zu einer Gesamtbewertung kombiniert und in den Fu- 
sionsbildern 41a, 41b, 41c (Figur 1) gespeichert und visualisiert. Somit erhalt 
man fur jeden Bildpunkt des reduzierten Bildes 1 1 fur jede Objektklasse eine 
GesamtbewertungsmaBzahl, die die kombinierte Bewertung der Klassifikato- 
ren des Ensembles reprasentiert. 

Die EinzelbewertungsmaBzahlen der Klassifikatoren eines Ensembles werden 
aufgrund vorbestimmter und bekannter mathematischer Verfahren miteinan- 
der kombiniert. Beispielsweise kann der Mittelwert der Einzelbewertungs- 
maBzahlen berechnet und als GesamtbewertungsmaBzahl verwendet werden. 
FaBt man die Entscheidung eines Klassifikators als Wahrscheinlichkeitsaus- 
sage auf, konnen statistische Verfahren, wie z.B. die Bayes-Fusion oder die 
Dempster-Shafer-Fusion, eingesetzt werden. Dabei werden die Ausgabewerte 
der Klassifikatoren als Wahrscheinlichkeiten genahert und konnen mit Hilfe 
der Wahrscheinlichkeitstheorie und bekannten Apriori-Wahrscheinlichkeiten 
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fusioniert werden. Diese Apriori-Wahrscheinlichkeiten konnen beispielsweise 
aus Kontextinformationen uber die Art, Lage und Inhalt des auszuwertenden 
Eingangsbildes (1) gewonnen werden. Die Wahrscheinlichkeitswerte der Klas- 
sifikatoren des Ensembles werden bildpunktweise fur jede Objektklasse 
5 durch die statistischen Verfahren zusammengefaBt. Das Fusionsergebnis fur 
jeweils eine Objektklasse entspricht dabei einer endgultigen Wahrscheinlich- 
keitsaussage fur den betrachteten Bildpunkt beziiglich der vorgegebenen 
Objektklasse. 

Die Fusion 40 der EinzetbewertungsrnaBzahlen des Ensembles kann fur einen 
^Qno beliebigen Pixelpunkt des reduzierten Bildes 11 z.B. folgendermaBen ablau- 
fen. Fur jede Objektklasse werden die BewertungsmaBzahlen der verschiede- 
nen Klassifikatoren der korrespondierenden Pixelpunkte der Klassifikations- 
bilder 31a, 32a, 33a bzw. 31b, 32b, 33b bzw. 31c, 32c, 33c algorithmisch 
kombiniert. Legt man als BewertungsmaBzahlen z.B. Wahrscheinlichkeiten 

15 zugrunde und liefern die Klassifikatoren des Ensembles fur eine bestimmte 
Objektklasse pixelweise z.B. die Wahrscheinlichkeiten 87 Prozent, 83 Prozent 
und 95 Prozent, so konnte das Fusionsergebnis fur diesen Pixelpunkt und 
diese Objektklasse z.B. als der Mittelwert der drei Wahrscheinlichkeiten, 88,3 
Prozent, festgelegt werden. Die einzelnen Zahlen haben in diesem Beispiel 

20 folgende Bedeutung: Ein erster Klassifikator des Ensembles, der dem Filter- 
bild 21 zugeordnet ist, liefert fur eine bestimmte Objektklasse und den be- 
trachteten Pixelpunkt des reduzierten Bildes 1 1 den Wahrscheinlichkeitswert 
^ 87 Prozent, d.h. der Klassifikator ordnet dem betrachteten Pixelpunkt auf- 
grund der Merkmale aus dem Filterbild 21 die Wahrscheinlichkeit von 87 Pro- 

25 zent zu, daB dieser Pixelpunkt zu einer Objektklasse, z.B. der Objektklasse a, 
gehort. Entsprechend sind die weiteren Wahrscheinlichkeitswerte der ver- 
bleibenden Klassifikatoren und Pixelpunkte zu interpretieren. Die fusionierte 
Gesamtwahrscheinlichkeit je Pixelpunkt bedeutet, daB das Ensemble dem 
betrachteten Pixelpunkt eine Wahrscheinlichkeit von z.B. 88,3 Prozent fur die 

30 Zugehorigkeit zu einer bestimmten Objektklasse, z.B. a, zuordnet. Fur die 
weiteren Objektklassen lauft die Fusion analog ab. 
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In einem letzten Verfahrensschritt 50 wird ein Entscheidungsergebnisbild 51 
ersteilt. Dazu wird aus den Fusionsbiidern 41a, 41b, 41c fur jeden Pixelpunkt 
des reduzierten Bildes 1 1 bestimmt, ob und zu welcher dieser der vorgegebe- 
nen Objektklassen angehort. Fur diese Zuordnung werden die Gesamtbewer- 

5 tungsmaBzahlen der korrespondierenden Pixelpunkte der Fusionsbilder 41-a, 
41b, 41c miteinander verglichen, z.B. indem das Maximum der Gesamtbewer- 
tungsmaBzahlen fur die verschiedenen Objektklassen bestimmt wird. Es wird 
dabei die Objektklasse ausgewahlt, dessen GesamtbewertungsmaBzahl den 
hochsten Wert hat. Das somit bestimmte maximale GesamtbewertungsmaB 

10 fur eine Objektklasse wird anschlieBend noch mit einem vorgegebenen 
Schwellenwert verglichen und falls der Wert uber dem Schwellenwert liegt, 
wird dem korrespondierendem Pixelpunkt im Entscheidungsergebnisbild 51 
die entsprechende Objektklasse geeignet kodiert zugeordnet. Durch den vor- 
ab gewahlten Schwellenwert wird fur jeden Bildpunkt festgelegt, ob dieser 

is Bildpunkt Teil eines Objektes einer bestimmten Objektklasse ist oder nicht. 

Eine mogliche Erstellung des Entscheidungsergebnisbildes 51 wird im folgen- 
den beschrieben. Geht man beispielsweise von drei zu erkennende Objekt- 
klassen aus, z.B. „Kleinwagen", „Limousine" und transporter", hat fur einen 
bestimmten Pixelpunkt die GesamtbewertungsmaBzahl z.B. fur die Objekt- 

20 klasse transporter" den hochsten Wert und liegt diese BewertungsmaBzahl 
uber einen vorgegebenen Schwellenwert, dann wird der betrachtete Pixel- 
punkt der Objektklasse transporter" zugewiesen. Liegt die Gesamtbewer- 
tungsmaBzahl unter dem Schwellenwert, wird davon ausgegangen, daB der 
Pixelpunkt zu keiner der gegebenen Objektklassen gehort. Fur die drei ge- 

25 nannten Beispielobjektklassen kann den Pixelpunkten des Entscheidungser- 
gebnisbildes 51 beispielsweise jeweils eine Identifizierungsnummer aus dem 
Zahlenbereich von Null bis Drei zugeordnet werden, wobei die Zahl Null be- 
deutet, daB der Pixelpunkt zu keiner der gesuchten Objektklassen gehort, die 
Zahl Eins, daB der Pixelpunkt zu der Objektklasse „Kleinwagen" gehort, usw. 

30 In dem Entscheidungsergebnisbild 51 werden die erkannten Objekte durch 
Pixelcluster reprasentiert. Ein Cluster wird allgemein durch eine groBere An- 
zahl von benachbarten Pixelpunkten mit identischen Eigenschaften, z.B. 
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Farbwerten, gebildet. In dem Entscheidungsergebnisbild 51 bei einer bei- 
spielhaften Kodierung aus dem Zahlenbereich von Null bis Drei der genannten 
drei Objektklassen, zeichnet sich ein Cluster dadurch, aus, daB die benach- 
barten Pixelpunkte uberwiegend einer bestimmten Objektklasse zugeordnet 
5 sind und somit uberwiegend uber die gleiche Kodierung verfugen. 

Fur das Beispiel-Eingangsbild mit dem beschriebenen Szenario einer StraBe 
mit Fahrzeugen enthalt das Entscheidungsergebnisbild 51 beispielsweise 
Cluster in den Bildbereichen, die bestimmten Fahrzeug-Typen entsprechen. 
Die GroBe dieser Cluster entspricht dabei ungefahr der Ausdehnung der Fahr- 
0 10 zeuge im Bild. Einen Ausschnitt aus einem moglichen Entscheidungsergeb- 
nisbild 51 zeigt Figur 3. Darin enthalten sind drei Cluster, die sich aus mehre- 
ren Pixelpunkten mit uberwiegend gleicher Kodierung zusammensetzen und 
jeweils einem Objekt einer bestimmten Objektklasse entsprechen. 

Das Entscheidungsergebnisbild 51 kann fur eine Weiterverarbeitung auf Ob- 
15 jektebene eingesetzt werden. Das erfindungsgemaBe Verfahren bezieht.sich 
nur auf die Bildpixelebene. Nachfolgend wird erganzend dazu beispielhaft 
darauf eingegangen, wie der Ubergang zur symbolischen Objektebene, i.e. die 
Beschreibung der Bildinhalte durch Symbole, stattfinden kann. Die Verfah- 
rensschritte, die zum Ubergang von der ikonischen Bildpunktebene zur sym- 
20 bolischen Objektebene erforderlich sind, stellen den Stand der Technik dar 
und sind weitlaufig bekannt. 

Anhand z.B. der ClustergroBe, d.h. der Anzahl an Bildpunkten gleicher Kodie- 
rung in einem einzelnen Cluster, im Entscheidungsbild 51 kann fiir jeden Clu- 
ster entschieden werden, ob dieser Cluster ein reales Objekt einer vorgege- 

25 benen Objektklasse im Eingangsbild 1 auf der symbolischen Objektebene re- 
prasentiert oder nicht. Bilden z.B. die Pixelpunkte einen Cluster im Entschei- 
dungsergebnisbild 51, dessen GroBe uber einem gewissen Wert liegt, z.B. 
Ciber 100 Pixelpunkte, wird der Cluster einem erkannten Objekt der entspre- 
chenden Objektklasse gleichgesetzt. Die Positionen der erkannten Objekte 

30 im Eingangsbild 1 konnen z.B. aus den Schwerpunktspositionen der Cluster 
genahert werden. 



Sc/Th - 17.11.1999 



P 609252 



14 



Das reduzierte Bild 11, die Filterbilder 21, 22, 23, die Klassifikationsbilder 
31a, 32a, 33a bzw. 31b, 32b, 33b bzw. 31c, 32c, 33c, die Fusionsbilder 41a, 
41b, 41c sowie das Entscheidungsergebnisbild 51 mussen keine Biider im 
anschaulichen Sinne sein, sondern konnen auch mittels mathematischer Me- 
thoden, z.B. mittels Matrizen, formuliert sein. 

Das erfindungsgemaBe Verfahren kann je nach Anwendungsfall fur verschie- 
dene Zahlen von Objektklassen und im einfachsten Fall fur nur eine Objekt- 
klasse durchgefuhrt werden. Figur 4 zeigt das Verfahren fur den letztgenann- 
ten Fall, bei dem nur eine Objektklasse relevant oder gesucht ist 
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Patentanspruche 



1. Verfahren zur Erkennung von Objekten mindestens einer vorbestimm- 
ten Objektklasse auf der Pixelebene in Eingangsbildern, 

bei dem fur jedes Eingangsbild (1) jeder Pixelpunkt in einer Grobklassifi- 
kation (10) aufgrund vorgegebener Kriterien als fur die Objekterkennung 
relevant eingestuft wird und daraufhin ein auf die relevanten Pixelpunkte 
reduziertes Bild (11) gebildet wird, 

bei dem jedes reduzierte Bild (1 1) in einer Zerlegung (20) durch Filterung 
nach vorgegebenen Kriterien in zumindest zwei korrespondierende Fil- 
terbilder (21, 22, 23) zerlegt wird, wobei die fur die Erkennung der Ob- 
jekte relevanten Bildbestandteile und deren gegenseitigen Zuordnungen 
erhalten bleiben, 

bei dem in einem Klassifikationsschritt (30) aus den Filterbildern (21, 22, 
23) mittels eines Ensembles von nach vorbestimmten Regeln arbeiten- 
den Klassifikatoren Klassifikationsbilder (31a, 32a, 33a; 31b, 32b, 33b; 
31c, 32c, 33c) mit Bewertungszahlen der Klassifikation fur jede Ob- 
jektklasse gebildet werden, 

bei dem in einer Fusion (40) die Klassifikationsbilder (31a, 32a, 33a; 
31b, 32b, 33b; 31c, 32c, 33c) algorithmisch zu einer kombinierten Ge- 
samtentscheidung (41a, 41b, 41c) fur jede Objektklasse zusammenge- 
fa(3t werden, 

bei dem in einer Erstellung des Entscheidungsergebnisses (50) fur jeden 
Pixelpunkt des reduzierten Bildes (11) anhand der Fusionsbilder (41a, 
41b, 41c) entschieden wird, ob und zu welcher Objektklasse der Pixel- 
punkt gehort. 
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2. Verfahren zur Erkennung von Objekten nach Anspruch 1, dadurch 
gekennzeichnet, daB bei der Grobklassifikation (10) die relative Homogeni- 
tat der Pixelpunkt-Umgebung als Kriterium fur die Relevahz eines Pixelpunk- 
tes im Eingangsbild (1) verwendet wird. 

5 3. Verfahren zur Erkennung von Objekten nach Anspruch 1 oder 2, da- 

durch gekennzeichnet, daB bei der Zerlegung (20) aus dem reduzierten Bild 
(11) durch die mehrfache Kombination von zweidimensionaler Filterung eine 
Bildpyramide (21, 22, 23) erzeugt wird, in der das reduzierte Bild (11) auf 
mehreren Auflosungsstufen vorliegt. 

10 4. Verfahren zur Erkennung von Objekten nach einem der voranstehen- 

den Anspruche, dadurch gekennzeichnet, daB bei der Zerlegung (20) aus 
dem reduzierten Bild (11) eine zweidimensionale Filterung nach Graustufen 
vorgenommen wird. 

5. Verfahren zur Erkennung von Objekten nach einem der voranstehen- 
15 den Anspruche, dadurch gekennzeichnet, daB bei der Klassifikation (30) fur 
jeden Pixelpunkt des reduzierten Bildes (11) jeweils eine um diesen Pixel- 
punkt gelegene Umgebung des jeweiligen Filterbildes (21, 22, 23) in Form 
eines Merkmalsvektors als Eingangsinformation fur einen Klassifikator ver- 
wendet wird. 

*J^20 6. Verfahren zur Erkennung von Objekten nach Anspruch 5, dadurch 

gekennzeichnet, daB bei der Bildung des Merkmalsvektors die Werte der 
Umgebung des Pixelpunktes der jeweiligen Filterbilder (21, 22, 23) spiralfor- 
mig in einen Koeffizientenvektor einsortiert werden, auf den eine schnelle 
Fouriertransformation angewendet wird und der Merkmalsvektor aus dem 
25 Betrag der Transformationskoeffizienten gebildet wird. 

7. Verfahren zur Erkennung von Objekten nach einem oder mehreren 
der voranstehenden Anspruche, dadurch gekennzeichnet, daB als Klassifika- 
tor fur die Klassifikation (30) ein lernfahiges Neuronales Netz eingesetzt wird. 
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8 Verfahren zur Erkennung von Objekten nach Anspruch 7 dadurch 
u n^thnet daB bei der Bestimmung der Regeln fur d.e Neuronalen 

te Pixel'punkte des Eingangsbildes (1) eingestuft worden and. 

9 . verfahren zur Erkennung von Objekten '^.f^^ 
dervoranstehenden Anspruche, dadurch gekennzeichnet, daS be, de r us 

,40, die K.ssifikationsbiider gemaB ^ 
„er Gesamtentscheidung ». engef uhrt werde nd 
noch Kontextinformationen uberdie Art, Lage una inndii 
Eingangsbildes (1) einflieBen. 

,0. Verfahren zur Erkennung von Objekten nach 
der voranstehenden Anspruche, dadurch geken„ze.chnet, da >be. der Er 

stellung (50) des Entscheidungsergebnisses die erkannten Objekte au der 
BMpixelebene durch Pixelcluster in dem Entscheidungser g ebn,sb,ld (5.) re- 
prasentiert werden. 
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Zusammenfassung: 



Die Erfindung betrifft ein Verfahren zur Erkennung von Objekten mindestens 
einer vorbestimmten Objektklasse auf der Pixelebene in Eingangsbildern, bei 
5 dem fur jedes Eingangsbild (1) jeder Pixelpunkt in einer Grobklassifikation 
(10) aufgrund vorgegebener Kriterien als fur die Objekterkennung relevant 
eingestuft wird und daraufhin ein auf die relevanten Pixelpunkte reduziertes 
Bild (11) gebildet wird, bei dem jedes reduzierte Bild (11) in einer Zerlegung 
■ (20) durch Filterung nach vorgegebenen Kriterien in zumindest zwei korre- 
10 spondierende Filterbilder (21, 22, 23) zerlegt wird, wobei die fur die Erken- 
nung der Objekte relevanten Bildbestandteile und deren gegenseitigen Zu- 
ordnungen erhalten bleiben, bei dem in einem Klassifikationsschritt (30) aus 
den Filterbildern (21, 22, 23) mittels eines Ensembles von nach vorbestimm- 
ten Regeln arbeitenden Klassifikatoren Klassifikationsbilder (31a, 32a, 33a; 
15 31b, 32b, 33b; 31c, 32c, 33c) mit Bewertungszahlen der Klassifikation fur 
jede Objektklasse gebildet werden, bei dem in einer Fusion (40) die Klassifi- 
kationsbilder (31a, 32a, 33a; 31b, 32b, 33b; 31c, 32c, 33c) algorithmisch zu 
einer kombinierten Gesamtentscheidung (41a, 41b, 41c) fur jede Objektklas- 
se zusammengefaBt werden, bei dem in einer Erstellung des Entscheidungs- 
20 ergebnisses (50) fur jeden Pixelpunkt des reduzierten Bildes (11) anhand der 
Fusionsbilder (41a, 41b, 41c) entschieden wird, ob und zu welcher Objekt- 
' klasse der Pixelpunkt gehort. 




Fig- 1 
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